智能论文笔记

View Sub-sampling and Reconstruction for Efficient Light Field Compression

Yang Chen , Martin Alain , Aljosa Smolic

分类：计算机视觉

2022-08-12

压缩是许多实际应用的重要任务。尽管以前的工作提出了许多用于有效的光场压缩的方法，但视图选择对此任务的影响并未得到很好的利用。在这项工作中，我们研究了光场压缩的不同子采样和重建策略。我们在光场压缩之前和之后应用各种子采样和相应的重建策略。然后，评估完全重建的光场，以评估不同方法的性能。我们的评估是对现实世界和合成数据集进行的，并且从我们的实验结果中设计出最佳策略。我们希望这项研究将对未来的研究（例如光场流，存储和传输）有益。

translated by 谷歌翻译

Jointformer: Single-Frame Lifting Transformer with Error Prediction and Refinement for 3D Human Pose Estimation

Sebastian Lutz , Richard Blythman , Koustav Ghosal , Matthew Moynihan , Ciaran Simms , Aljosa Smolic

分类：计算机视觉

2022-08-07

单眼3D人姿势估计技术有可能大大增加人类运动数据的可用性。单位图2D-3D提升使用图卷积网络（GCN）的表现最佳模型，通常需要一些手动输入来定义不同的身体关节之间的关系。我们提出了一种基于变压器的新型方法，该方法使用更广泛的自我发场机制来学习代表关节的代币序列。我们发现，使用中间监督以及堆叠编码器福利性能之间的剩余连接。我们还建议，将错误预测作为多任务学习框架的一部分，可以通过允许网络弥补其置信度来改善性能。我们进行广泛的消融研究，以表明我们的每项贡献都会提高性能。此外，我们表明我们的方法的表现超过了最新的单帧3D人类姿势估计的最新技术状态。我们的代码和训练有素的模型可在GitHub上公开提供。

translated by 谷歌翻译

KinePose: A temporally optimized inverse kinematics technique for 6DOF human pose estimation with biomechanical constraints

Kevin Gildea , Clara Mercadal-Baudart , Richard Blythman , Aljosa Smolic , Ciaran Simms

分类：计算机视觉

2022-07-26

计算机视觉/基于深度学习的3D人体姿势估计方法旨在从图像和视频中定位人类关节。姿势表示通常限制为3D联合位置/平移自由度（3DOF），但是，许多潜在的生物力学应用需要另外三个旋转DOF（6DOF）。位置DOF不足以分析求解3D人类骨骼模型中的关节旋转DOF。因此，我们提出了一种时间反向运动学（IK）优化技术，以推断整个生物力学知情和特定于主体的运动链中的关节取向。为此，我们从基于位置的3D姿势估计的链接方向开出链接方向。顺序最小二乘二次编程用于解决最小化问题，涉及基于框架的姿势术语和时间术语。使用关节DOF和运动范围（ROM）约束溶液空间。我们生成3D姿势运动序列，以评估IK方法的一般准确性和在边界情况下的准确性。我们的时间算法以平均每个关节角分离（MPJAS）误差（3.7 {\ deg}/关节总体，＆1.6 {\ deg}/关节，下肢的平均值平均值（MPJAS）误差平均值较低。但是，在弯曲的肘部和膝盖的情况下，我们会获得低误差，但是，具有延伸/直肢阶段的运动序列会导致扭曲角度模棱两可。使用颞IK，我们减少了这些姿势的歧义，从而导致平均错误较低。

translated by 谷歌翻译

Image Aesthetics Assessment Using Graph Attention Network

Koustav Ghosal , Aljosa Smolic

分类：计算机视觉

2022-06-26

Aspect ratio and spatial layout are two of the principal factors influencing the aesthetic value of a photograph. However, incorporating these into the traditional convolutionbased frameworks for the task of image aesthetics assessment is problematic. The aspect ratio of the photographs gets distorted while they are resized/cropped to a fixed dimension to facilitate training batch sampling. On the other hand, the convolutional filters process information locally and are limited in their ability to model the global spatial layout of a photograph. In this work, we present a two-stage framework based on graph neural networks and address both these problems jointly. First, we propose a feature-graph representation in which the input image is modelled as a graph, maintaining its original aspect ratio and resolution. Second, we propose a graph neural network architecture that takes this feature-graph and captures the semantic relationship between different regions of the input image using visual attention. Our experiments show that the proposed framework advances the state-of-the-art results in aesthetic score regression on the Aesthetic Visual Analysis (AVA) benchmark. Our code is publicly available for comparisons and further explorations. 1

translated by 谷歌翻译

Spectral analysis of re-parameterized light fields

Martin Alain , Aljosa Smolic

分类：计算机视觉

2021-10-12

在本文中，我们研究了重新参数光场的光谱特性。在先前对光场光谱（特别是提供采样指南）的研究之后，我们着重于光场的两个平面参数化。但是，我们通过允许图像平面倾斜并且不仅平行于图像平面来引入额外的灵活性。首先提出形式的理论分析，这表明更灵活的采样指南（即更宽的相机基线）可以在将图像平面方向适应场景几何形状时采样光场。然后，我们提出模拟和结果，以支持这些理论发现。尽管本文介绍的作品主要是理论上的，但我们认为这些新发现开放了令人兴奋的途径，用于更实际应用光场，例如视图合成或紧凑的表示。

translated by 谷歌翻译

Is Geometry Enough for Matching in Visual Localization?

Qunjie Zhou , Sérgio Agostinho , Aljosa Osep , Laura Leal-Taixé

分类：计算机视觉

2022-03-24

在本文中，我们建议超越建立的基于视觉的本地化方法，该方法依赖于查询图像和3D点云之间的视觉描述符匹配。尽管通过视觉描述符匹配关键点使本地化高度准确，但它具有重大的存储需求，提出了隐私问题，并需要长期对描述符进行更新。为了优雅地应对大规模定位的实用挑战，我们提出了Gomatch，这是基于视觉的匹配的替代方法，仅依靠几何信息来匹配图像键点与地图的匹配，这是轴承矢量集。我们的新型轴承矢量表示3D点，可显着缓解基于几何的匹配中的跨模式挑战，这阻止了先前的工作在现实环境中解决本地化。凭借额外的仔细建筑设计，Gomatch在先前的基于几何的匹配工作中改善了（1067m，95.7升）和（1.43m，34.7摄氏度），平均中位数姿势错误，同时需要7个尺寸，同时需要7片。与最佳基于视觉的匹配方法相比，几乎1.5/1.7％的存储容量。这证实了其对现实世界本地化的潜力和可行性，并为不需要存储视觉描述符的城市规模的视觉定位方法打开了未来努力的大门。

translated by 谷歌翻译